当前位置: 开发笔记 > 编程语言 > 正文

CVPR2021|利用时序差分进行动作识别的最新Backbone—TDN

作者：尽做好风水_549_881 | 来源：互联网 | 2023-08-11 15:04

©作者｜童湛学校｜南京大学硕士生研究方向｜视频理解转自：PaperWeekly本文将介绍我们组NJU-MCG在行为识别&#x

©作者&＃xff5c;童湛

学校&＃xff5c;南京大学硕士生

研究方向&＃xff5c;视频理解

转自&＃xff1a;PaperWeekly

本文将介绍我们组 NJU-MCG 在行为识别&＃xff08;Action Recognition&＃xff09;领域被 CVPR 2021 接收的一篇工作。

论文标题&＃xff1a;

TDN: Temporal Difference Networks for Efficient Action Recognition

论文链接&＃xff1a;

https://arxiv.org/abs/2012.10071

代码链接&＃xff1a;

https://github.com/MCG-NJU/TDN

任务介绍

动作识别&＃xff08;Action Recognition&＃xff09;&＃xff1a;对给定剪裁过视频&＃xff08;Trimmed Video&＃xff09;进行分类&＃xff0c;识别这段视频中人物的动作。目前的主流方法有 2D-based&＃xff08;TSN, TSM, TEINet, etc.&＃xff09;和 3D-based&＃xff08;I3D, SlowFast, X3D&＃xff09;。

动作识别作为视频领域的基础任务&＃xff0c;常常作为视频领域其他 high-level task/downstream task 的 backbone&＃xff0c;去提取 video-level or clip-level 的视频特征。

研究动机

目前 3D-based 的方法在大规模的 scene-based 的数据集&＃xff08;如 kinetics&＃xff09;上相对于 2D 的方法取得了更好的效果&＃xff0c;但是 3D-based 也存在一些明显的问题&＃xff1a;

3D-based 的网络参数量大&＃xff0c;计算开销大&＃xff0c;训练的 scheduler 更长&＃xff0c;inference latency 明显慢于 2D-based 的方法。
3D 卷积其实并不能很好得学到时序上信息的变化&＃xff0c;而且 3D 卷积学出来的时序 Kernel 的 weight 的分布基本一致&＃xff0c;更多的还是对时序上的信息做一种 smooth aggregation。这一点在我们组之前的工作 TANet [1] 中有比较详细的讨论&＃xff0c;大家有兴趣也可以参考这篇 TANet [2] 的解读文章。也基于此&＃xff0c;3D-based 的网络在 Something-Something 这种对时序信息比较敏感的 video 数据集上并不能取得很好的效果&＃xff08;得靠 Kinetics 的 pre-train来提点 :&＃xff09;

基于以上几点&＃xff0c;我们组最近一直在探索更高效的 2D-based 的时序建模方法&＃xff0c;提出了包括 TSN&＃xff0c;TEINet&＃xff0c;TEA&＃xff0c;TAM 等轻量级的时序 video backbone。

我们今天要介绍的这篇工作 TDN 的研究动机也很直接明了&＃xff1a;我们能不能将时序上运动的变化显式得提取出来然后加入到网络中呢&＃xff1f;

最早在 14 年 VGG 就提出了大名鼎鼎的 Two-Stream [3] 网络&＃xff0c;通过将光流&＃xff08;Optical Flow&＃xff09;信息做为输入去提取时序上的运动信息。但是 Two-Stream 网络需要两个独立分离的 Backbone&＃xff0c;计算量直接翻倍&＃xff0c;而且提取光流也需要巨大的计算开销。

所以我们提出了 Temporal Difference Network&＃xff08;TDN&＃xff09;这种结构&＃xff0c;尝试通过 Difference 这种简单的操作去强制提取出时序信息中运动的变化&＃xff0c;然后补充到正常的 RGB 网络中去&＃xff0c;在不增加过多的计算量的前提下去更高效得进行时序建模。

下面简单介绍一下我们的方法和实验结果。

具体方法

▲ TDN 的整体结构图

我们的 TDN 是一个 Two-level 的结构&＃xff0c;其主要包含短时和长时两个模块——Short-term temporal difference module&＃xff08;S-TDM&＃xff09;和 Long-term temporal difference module&＃xff08;L-TDM&＃xff09;&＃xff1a;

▲ S-TDM 和 L-TDM 的网络结构

短时建模&＃xff08;S-TDM&＃xff09;&＃xff1a;首先&＃xff0c;我们还是参考 TSN 的采样方式&＃xff0c;在整个 Video-level 上均匀分段&＃xff08;segment&＃xff09;进行采样。在网络的前一个阶段&＃xff0c;我们希望可以在段内融合局部的运动变化信息&＃xff0c;所以我们提取原始 RGB 帧间的 difference 作为局部运动变化的一种表征&＃xff0c;然后 CNN 去进一步提取这种运动信息&＃xff0c;具体公式如下&＃xff1a;

长时建模&＃xff08;L-TDM&＃xff09;&＃xff1a;相对于之前 S-TDM 的段内 frame-wise 形式的时序建模&＃xff0c;在网络的后一个阶段&＃xff0c;我们希望可以对段间的运动变化信息进行增强&＃xff0c;去放大运动增强。所以我们参考 TEINet 的形式&＃xff0c;设计了一种基于 feature-difference 的通道 attention 增强方法。同时&＃xff0c;为了提升最后的效果&＃xff0c;我们还增加了 multi-scale 和 bidirectional 的结构。这部分的具体公式如下&＃xff1a;

实验结果

这里我们列出 Kinetics-400 和 Something-Something V1 和 V2 上的实验结果&＃xff0c;对 TDN 进行分析与验证。

▲ 在 Something-Something V1 上&＃xff0c;TDN 与其他 SOTA 方法在计算量和精度上的对比

▲ 在Something-Something V1和V2数据集上&＃xff0c;TDN与其他方法的比较

在 Something-Something V1 和 V2 这种对时序运动信息敏感的数据集上&＃xff0c;TDN 取得了56.8%&＃xff08;Sth V1&＃xff09;和68.2%&＃xff08;Sth V2&＃xff09;的 Top-1 精度&＃xff08;one-clip, center-crop testing scheme&＃xff09;&＃xff0c;明显超出了之前的所有方法&＃xff0c;取得新的 state-of-the-art。

▲ 在Kinetics-400数据集上&＃xff0c;TDN与其他SOTA方法进行比较。

上表列出了 TDN 在 Kinetics-400 数据集上与其他 SOTA 方法进行比较。由于 Kinetics 是一种 scene-based 的数据集&＃xff0c;所以时序上运动信息的变化不如 Something-Something 敏感和重要。

但是在计算量较低的条件下&＃xff0c;TDN 仍能取得了非常有竞争力的效果&＃xff0c;Top-1 精度基本与目前 3D-based 的方法&＃xff08;SlowFast, X3D&＃xff09;的最好结果持平&＃xff0c;同时我们还取得了最高的 Top-5 精度&＃xff08;94.4%&＃xff09;&＃xff08;ten-clip, three-crop testing scheme&＃xff09;。

讨论

其实在 Kinetics-400 数据集上&＃xff0c;3D-based 方法采用的 dense 采样的方式&＃xff0c;只能关注到整个视频的一小段 clip&＃xff0c;而 TDN 参考 TSN 进行全局稀疏的采样&＃xff0c;可以进行 video-level 的时序建模。从 one-clip, center-crop 这种单个view改为 ten-clip, three-crop 这种30 个 view的测试方法&＃xff0c;3D-based 方法会有 8-10 个点的提升&＃xff0c;TDN 只有 2-3 个点的提升。

但反过来&＃xff0c;在单个 view 的 testing scheme 下&＃xff0c;TDN 结果将会大幅度领先于 3D-based 方法。而这种单个 view 的采样方式能够在极低的计算代价下&＃xff0c;取得比较好的结果&＃xff0c;在工业界的现实场景下也更加实用和有意义。

总结

针对视频数据在时序上的动态特性&＃xff0c;我们提出了一种高效的时序差分网络&＃xff08;Temporal Difference Network, TDN&＃xff09;&＃xff0c;通过 Difference 这种简单的操作&＃xff0c;去显式得提取出视频中复杂精细的运动变化&＃xff0c;在不增加过多的计算量的前提下去更高效得进行时序建模&＃xff0c;并且我们通过实验在各个数据集上证明了 TDN 效果。更多方法中的细节&＃xff0c;Ablation study 和实验可视化可以参考我们的论文。

???? 长按识别&＃xff0c;邀请您进群&＃xff01;

推荐阅读

int
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
text
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
int
九度OnlineJudge之1002：Grading问题的解决方法

本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程，将每个考题分配给3个独立的专家，如果他们的评分不一致，则需要请一位裁判做出最终决定。文章详细描述了评分规则，并给出了解决该问题的程序。 ... [详细]

蜡笔小新 2023-12-14 13:00:09
int
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
int
CF：3D City Model（小思维）问题解析和代码实现

本文通过解析CF：3D City Model问题，介绍了问题的背景和要求，并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景，每个网格单元可以作为建筑的基础，建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路，并给出了相应的代码实现供读者参考。 ... [详细]

蜡笔小新 2023-12-13 14:17:11
version
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
version
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
text
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
text
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
object
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
java
SpringBoot yml 配置多配置文件,开发环境,生产环境配置文件分开

原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中，有两种配置文件，一种 ... [详细]

蜡笔小新 2023-12-14 12:39:13
version
baresip android编译、运行教程1语音通话

本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]

蜡笔小新 2023-12-14 10:53:48
version
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
int
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
version
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58

尽做好风水_549_881

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章